#Latent Forcing
李飛飛團隊新作:簡單調整生成順序,大幅提升像素級圖像生成質量
長期以來,AI生圖被一個經典矛盾困擾。潛空間模型效率高,但細節有損耗;像素空間模型保真度高,卻容易結構混亂、速度慢。要麼快要沒準,大家幾乎默認這是架構帶來的取捨問題,沒法徹底解決。但擴散模型生圖,順序真的對嗎?李飛飛團隊最新論文提出的Latent Forcing方法直接打破了這一共識,他們發現生成的質量瓶頸不在架構,而在順序。簡單說就像畫畫必須先打草稿再填色,AI也需要一個「先定結構、後填細節」的強制邏輯。Latent Forcing僅通過重排生成軌跡,像素擴散模型不僅找回了效率,更在多項指標上刷新SOTA。傳統方法瓶頸在深入瞭解Latent Forcing之前,咱先來說說當前兩大方法的瓶頸。傳統像素級擴散模型之所以畫圖會畫歪,是因為它在降噪過程中,高頻的紋理細節往往會干擾低頻的語義結構。模型常常在還沒搞清楚物體的整體輪廓時,就被迫去預測局部的像素顏色,其實這在本質上就違背了視覺生成的自然邏輯。為瞭解決這個問題,行業此前大多轉向潛空間。它通過預訓練的tokenizer把圖像壓到低維空間,生成速度飛起。但潛空間模型必須依賴一個預訓練的解碼器,但這不僅會引入重建誤差,也讓模型失去了端到端建模原始資料的能力。於是李飛飛團隊思考——能不能既保留像素級的無損精度,又獲得潛空間的結構引導?先打個草稿Latent Forcing的答案是——對擴散軌跡重新排序。怎麼做的呢?在不改變基礎Transformer架構的前提下,引入了雙時間變數機制。在訓練和生成過程中,模型會同時處理像素和潛變數。不同的是,團隊為兩者定製了獨立的降噪節奏:潛變數先行:在生成初期,潛變數會率先完成降噪,在大尺度上確立圖像的語義骨架;像素填色:在結構確定後,像素部分再跟進進行精細化降噪。這麼一看,潛變數就像是一個臨時的草稿本。生成結束時,這個草稿本直接丟棄,最終輸出仍是100%無損的原始像素圖像,沒有任何decoder。整個過程端到端、可擴展,幾乎不增加計算量(token數量不變,速度接近原生DiT)。這種先latent後pixel的細微調整,在ImageNet榜單上展現了出色的表現。在相同計算規模,訓練80個epochs的條件下,Latent Forcing在ImageNet-256任務中,條件生成的FID分數較此前最強的像素級模型JiT+REPA,從18.60降到9.76,接近腰斬。在200個epoch的最終模型(ViT‑L 規模)下,Latent Forcing實現了條件生成FID 2.48(guided)、無條件生成FID 7.2(unguided)的分數。創下像素空間擴散Transformer新的SOTA。過去學術界普遍認為,必須通過更高倍率的失真壓縮才能換取好的FID表現。Latent Forcing則用資料反駁了這一觀點——在保持100%原始像素精度的情況下,我們依然能跑出超越有損模型的性能。Latent Forcing項目由李飛飛領銜。第一作者Alan Baade是李飛飛的學生,史丹佛電腦系博士生,在擴散模型和生成建模方向有深入研究。其他史丹佛共同作者包括Eric Ryan Chan、Kyle Sargent、Changan Chen和Ehsan Adeli。此外,密歇根大學教授Justin Johnson作為合作作者參與其中。 (量子位)